智能论文笔记

Using Large-scale Heterogeneous Graph Representation Learning for Code Review Recommendations

Jiyang Zhang , Chandra Maddila , Ram Bairi , Christian Bird , Ujjwal Raizada , Apoorva Agrawal , Yamini Jhawar , Kim Herzig , Arie van Deursen

分类：人工智能

2022-02-04

Code review is an integral part of any mature software development process, and identifying the best reviewer for a code change is a well accepted problem within the software engineering community. Selecting a reviewer who lacks expertise and understanding can slow development or result in more defects. To date, most reviewer recommendation systems rely primarily on historical file change and review information; those who changed or reviewed a file in the past are the best positioned to review in the future. We posit that while these approaches are able to identify and suggest qualified reviewers, they may be blind to reviewers who have the needed expertise and have simply never interacted with the changed files before. To address this, we present CORAL, a novel approach to reviewer recommendation that leverages a socio-technical graph built from the rich set of entities (developers, repositories, files, pull requests, work-items, etc.) and their relationships in modern source code management systems. We employ a graph convolutional neural network on this graph and train it on two and a half years of history on 332 repositories. We show that CORAL is able to model the manual history of reviewer selection remarkably well. Further, based on an extensive user study, we demonstrate that this approach identifies relevant and qualified reviewers who traditional reviewer recommenders miss, and that these developers desire to be included in the review process. Finally, we find that "classical" reviewer recommendation systems perform better on smaller (in terms of developers) software projects while CORAL excels on larger projects, suggesting that there is "no one model to rule them all."

translated by 谷歌翻译

Nudge: Accelerating Overdue Pull Requests Towards Completion

Chandra Maddila , Sai Surya Upadrasta , Chetan Bansal , Nachiappan Nagappan , Georgios Gousios , Arie van Deursen

分类：人工智能 | 机器学习

2020-11-25

拉力请求是当今协作软件开发和代码审核过程的关键部分。但是，当审阅者或作者不积极参与拉动请求时，拉动请求也可以减慢软件开发过程。在这项工作中，我们设计了一项端到端服务，以提醒作者或审阅者与他们的逾期拉动请求互动，以加速逾期拉动请求。首先，我们根据努力估算和机器学习使用模型来预测给定拉的请求的完成时间。其次，我们使用活动检测来滤除可能逾期的拉请请求，但仍在采取足够的动作。最后，我们使用演员身份证来了解拉动请求的阻止者是谁，并推动适当的演员（作者或审稿人）。轻推的主要新颖性是它成功地减少了拉动请求解决时间，同时确保开发人员认为发送的通知在成千上万的存储库中是有用的。在Microsoft使用的147个存储库的随机试验中，Nudge能够将拉的请求分辨率时间减少60％，而与Nudge未发送通知的逾期拉动请求相比，该请求的8,500次拉。此外，收到推动通知的开发人员将这些通知的73％置于正面。我们观察到在Microsoft的8,000个存储库中扩展Nudge的部署时，我们观察到了类似的结果，在整整一年中，Nudge发送了210,000个通知。这表明了Nudge可以扩展到数千个存储库的能力。最后，我们对选择通知的定性分析指示了未来研究的领域，例如在拉动请求和开发人员的可用性中考虑依赖性。

translated by 谷歌翻译

NusaCrowd: Open Source Initiative for Indonesian NLP Resources

Samuel Cahyawijaya , Holy Lovenia , Alham Fikri Aji , Genta Indra Winata , Bryan Wilie , Rahmad Mahendra , Christian Wibisono , Ade Romadhony , Karissa Vincentio , Fajri Koto

分类：自然语言处理 | 人工智能

2022-12-19

We present NusaCrowd, a collaborative initiative to collect and unite existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have has brought together 137 datasets and 117 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their effectiveness has been demonstrated in multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and its local languages. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and its local languages. Our work is intended to help advance natural language processing research in under-represented languages.

translated by 谷歌翻译

F-COREF: Fast, Accurate and Easy to Use Coreference Resolution

Shon Otmazgin , Arie Cattan , Yoav Goldberg

分类：自然语言处理

2022-09-09

我们介绍了FastCoref，这是一个用于快速，准确且易于使用的英语核心分辨率的Python软件包。该软件包是可以安装的，并且允许两种模式：基于LingMess体系结构的精确模式，提供最新的核心精度，以及基本更快的模型F-Coref，这是本工作的重点。\ Model {}允许在V100 GPU上25秒内处理2.8K Ontonotes文档（相比之下，LingMess模型为6分钟，而流行的AllennLP Coreference模型的12分钟仅适度精度下降。快速速度是通过将紧凑模型从Lingmess模型中蒸馏而成的，以及使用我们称为“剩余批处理”的技术的有效批处理实现。https://github.com/shon-otmazgin/fastcoref

translated by 谷歌翻译

Syntax-driven Data Augmentation for Named Entity Recognition

Arie Pratama Sutiono , Gus Hahn-Powell

分类：自然语言处理 | 人工智能 | 机器学习

2022-08-15

在低资源设置中，通常利用数据增强策略来提高性能。许多方法尝试了文档级的扩展（例如文本分类），但是很少有研究探讨了令牌级的增强。表演天真，数据增强可以产生语义上不一致和不语法的示例。在这项工作中，我们比较了使用选区突变的简单掩盖语言模型更换和增强方法，以改善低资源设置中指定实体识别的性能，以保留增强句子的语言凝聚力。

translated by 谷歌翻译

Direction-Aware Adaptive Online Neural Speech Enhancement with an Augmented Reality Headset in Real Noisy Conversational Environments

Kouhei Sekiguchi , Aditya Arie Nugraha , Yicheng Du , Yoshiaki Bando , Mathieu Fontaine , Kazuyoshi Yoshii

分类：机器学习

2022-07-15

本文介绍了增强现实耳机（AR）耳机的实用响应和性能感知的开发，该耳机可帮助用户了解在真实嘈杂的回声环境中进行的对话（例如，鸡尾酒会）。人们可以使用称为快速多通道非负矩阵分解（FastMNMF）的最先进的盲源分离方法，该方法在各种环境中都可以在各种环境中效果很好。但是，其沉重的计算成本阻止了其在实时处理中的应用。相反，一种使用深神网络（DNN）来估算语音和噪声的空间信息的有监督的束形方法很容易适合实时处理，但在不匹配的条件下，性能急剧下降。鉴于这种互补特征，我们提出了一种基于基于DNN的横梁成形的双过程强大的在线语音增强方法，并通过FastMNMF引导的适应性。 FastMNMF（后端）以迷你批次样式进行，嘈杂和增强的语音对与原始的并行训练数据一起使用，用于更新方向感知的DNN（前端），并在可计算上可允许的间隔内进行反向传播。该方法与盲遗产方法一起使用，称为加权预测错误（WPE），用于抄写扬声器的嘈杂的回响语音，可以从视频中检测到，或以用户的手势或眼睛注视，以流式传输方式和空间显示。用AR技术的转录。我们的实验表明，仅使用十二分钟的观察，随着运行时间的适应，单词错误率提高了10点以上。

translated by 谷歌翻译

Direction-Aware Joint Adaptation of Neural Speech Enhancement and Recognition in Real Multiparty Conversational Environments

Yicheng Du , Aditya Arie Nugraha , Kouhei Sekiguchi , Yoshiaki Bando , Mathieu Fontaine , Kazuyoshi Yoshii

分类：机器学习

2022-07-15

本文介绍了增强现实耳机的嘈杂语音识别，该耳机有助于在真实的多方对话环境中进行口头交流。在模拟环境中积极研究的一种主要方法是，基于以监督方式训练的深神经网络（DNNS），依次执行语音增强和自动语音识别（ASR）。但是，在我们的任务中，由于培训和测试条件与用户的头部移动之间的不匹配，因此这种预处理的系统无法正常工作。为了仅增强目标扬声器的话语，我们基于基于DNN的语音掩码估计器使用束构造，该估计量可以适应地提取与头部相关特定方向相对应的语音组件。我们提出了一种半监督的适应方法，该方法使用带有地面真实转录和嘈杂的语音信号的干净语音信号在运行时共同更新蒙版估计器和ASR模型，并具有高度固定的估计转录。使用最先进的语音识别系统的比较实验表明，所提出的方法显着改善了ASR性能。

translated by 谷歌翻译

CLTS-GAN: Color-Lighting-Texture-Specular Reflection Augmentation for Colonoscopy

Shawn Mathew , Saad Nadeem , Arie Kaufman

分类：计算机视觉

2022-06-29

由于颜色，照明，纹理和镜面反射的变化，光学结肠镜检查（OC）视频帧的自动分析（OC）框架（在OC期间有助于内镜医生）具有挑战性。先前的方法要么通过预处理（使管道变得麻烦）删除其中的一些变化，要么添加带注释（但昂贵且耗时）的多种培训数据。我们提出了CLTS-GAN，这是一种新的深度学习模型，可很好地控制OC视频帧的颜色，照明，纹理和镜面反射合成。我们表明，将这些特定于结肠镜检查的增强添加到训练数据中可以改善最新的息肉检测/分割方法，并推动下一代OC模拟器用于培训医学生。CLTS-GAN的代码和预训练模型可在计算内窥镜平台GitHub（https://github.com/nadeemlab/cep）上获得。

translated by 谷歌翻译

SPDCinv: Inverse Quantum-Optical Design of High-Dimensional Qudits

Eyal Rozenberg , Aviv Karnieli , Ofir Yesharim , Joshua Foley-Comer , Sivan Trajtenberg-Mills , Daniel Freedman , Alex M. Bronstein , Ady Arie

分类：机器学习

2021-12-11

量子光学器件中的自发参数下转换是实现具有空间光模式的高维QUITIES的宝贵资源。主要开放挑战之一是如何在SPDC过程中直接生成所需的Qudit状态。通过高级计算学习方法可以解决这个问题;然而，由于通过考虑所有互动效应的完全可分辨率算法对SPDC过程建模的困难，进展有限。在这里，我们克服了这些限制并引入了物理受约束和可微分的模型，验证了针对形状泵浦梁和结构晶体的实验结果，能够在过程中学习每个交互参数。我们避免了我们物理模型随机性质引起的任何限制，并整合了在SPDC Hamiltonian下的演变的动态方程。我们解决了设计非线性量子光学系统的逆问题，该系统实现了降低的光子对的所需量子状态。使用不同空间模式之间的二阶相关性或通过指定所需的密度矩阵来定义所需状态。通过学习非线性卷全息图以及不同的泵形状，我们成功地展示了如何生成最大纠缠的状态。此外，我们通过主动改变泵浦光束的轮廓来模拟产生的量子状态的全光相干控制。我们的工作对于高维量子密钥分布和量子信息处理协议等新颖设计有用。此外，我们的方法可以容易地应用于控制SPDC过程中的其他光度的其他光度，例如光谱和时间特性，甚至可以用于具有类似相互作用Hamiltonian的冷凝物系统。

translated by 谷歌翻译

SciCo: Hierarchical Cross-Document Coreference for Scientific Concepts

Arie Cattan , Sophie Johnson , Daniel Weld , Ido Dagan , Iz Beltagy , Doug Downey , Tom Hope

分类：自然语言处理 | 机器学习

2021-04-18

确定多个文档的概念提及的练习是自然语言理解中的基本任务。以前关于跨文档Coreference解析（CDCR）的工作通常会考虑新闻中的事件提到，这很少涉及普遍存在的科学和技术的技术概念。这些复杂的概念采用不同的形式或含糊不清的形式，并且具有许多分层级别的粒度（例如，任务和子组织），构成了CDCR的挑战。我们呈现了分层CDCR（H-CDCR）的新任务，其目标是在它们之间联合推断COREREFER集群和层次结构。我们在科学论文中创建SciCo，一个专家注释的H-CDCR数据集，比突出的欧洲ecb +资源大3倍。我们研究了我们为H-CDCR定制的强大基线模型，并突出了未来工作的挑战。

translated by 谷歌翻译